最近在写的两个东西

这两天写了两个简单的小程序,主要是满足朋友和个人需求的,还在修改中。

第一个叫 apn 的程序是给 Mac OS X 中 Address Book 中的联系人自动生成姓名发音 (Phonetic Name) 的脚本,所以它的名字就是 Assign Phonetic Name 的缩写。

这是一个 Python 写的程序,直接用到了 pyzh 项目提供的汉字拼音转换代码,通过 Scripting Bridge 提供的 API 来访问 Address Book,这样虽然相比直接调用 Objective-C 的 API 有点慢,但好处在于能充分利用 Python 语言的灵活性。

使用起来很简单,从 github 上把代码抓下来 (你可以 git clone git://github.com/jjgod/apn.git 或者下载一个打包的版本),然后执行

$ python AssignPhoneticName.py

就会自动给你 Address Book 中没有分配过 Phonetic Name 的那些联系人分配一遍。注意因为汉字有多音字,这个程序做不到很智能,你最好在分配之后打开 Address Book 校对一遍。

第二个是给 Cocoa 程序员用的一个 NSView 的子类,叫 PYView,其作用很简单,就是在汉字上方同步的显示拼音,不过目前拼音还得自己提供。

调用的 API 很简单,比如这样:

#include "PYView.h"

NSRect viewRect = NSMakeRect(50, 250, 700, 80);
view = [[PYView alloc] initWithFrame: viewRect
                            fontName: @”FZKai-Z03″
                               color: [NSColor whiteColor]];

NSArray *pinyin1 = [NSArray arrayWithObjects: @"nǐ", @"hǎo", nil];
NSArray *pinyin2 = [NSArray arrayWithObjects: @"zhōng", @"huá",
                    @"rén", @"mín", @"gòng", @"hé", @"guó", nil];


[view appendMarkerItem: [PYMarkerItem itemWithHanzi: @"你好"
                                             pinyin: pinyin1
                                               type: 1]];
[view appendMarkerItem: [PYMarkerItem itemWithHanzi: @"中华人民共和国"
                                             pinyin: pinyin2
                                               type: 1]];

就能得到如图所示的输出结果:

PinyinView

可以从 github 上获取代码:

 git clone git://github.com/jjgod/pinyinview.git

然后参考提供的 PYViewTest 代码来使用。注意接口还在修改中。

TextEdit/UCD R5 与 Cocoa Text System

更新: TextEdit/UCD 的代码现在可以在 [http://gitorious.org/projects/textedit-ucd/](http://gitorious.org/projects/textedit-ucd/) 找到。

TextEdit/UCD 的第 5 个版本[发布](http://jjgod.org/program/TextEdit-UCD-r5.dmg)了,TextEdit/UCD 开发的目标是尽可能解决所有 TextEdit 固有的中文处理问题,但并不改变 TextEdit 原有的轻量小巧。

在开发这个版本中,我发现了一个 Cocoa Text System 的固有问题:还没有下载的朋友可以先打开自己机器上的 TextEdit,输入一个汉字,一个英文字母,如“中a”,这时汉字会以默认的中文字体显示,英文字母会以 Preferences 中设定的 Plain Text 字体 (如 Monaco) 显示,此时按下 cmd-‘+’ 增大一号字体,然后再输入一个英文字母,就会发现这个新的英文字母居然改用中文字体显示了?

为什么呢?在 TextEdit 中花了一段时间重载各个类,加上 gdb 分析,结果发现,其实在 Make Text Bigger/Make Text Smaller 时,调用 `[NSFontManager modifyFont:]`,这个 `modifyFont:` 方法会将 `-changeFont:` 这个 action 发送到 responder chain 中,而此时的 NSTextView 收到这个 action 以后,居然会将 `[NSFontManager sharedInstance]` 的 `selectedFont` 修改为这个 TextView 的 TextStorage 中第一个字符使用的字体。于是就导致了已选字体的变化。这其实不是我们期望的结果。

然而,由于事实上 NSTextView 的 changeFont 实现可能很复杂,它要逐个分析所有的 run,逐个将这个 run 的字体送到 NSFontManager 中 convertFont 获得新的字体。既然我们无法直接修改这个 changeFont 的代码,就只能用重载的方法,写一个新的 NSTextView 的子类,重载这个函数,在调用基类的 changeFont 之前,先给整个文档的开头加上一个用纯文本字体的新字符,然后在调用完基类 changeFont 之后再把它删除。

这是一个看起来有些 dirty 的方法,不过很有用,也算是“曲线救国”,用欺骗的方式使之有正确的效果。

Cocoa 的 NSString 解码错误处理

在使用 [Safari](http://www.apple.com/safari) 的时候,我们会注意到一个很常见的乱码问题,如下图:

Safari Decode Error

这是在打开 [http://att.newsmth.net/att.php?p.719.214628.536.png]() 这样的图片链接时,Safari 错误的判断了这个图片文件的文件名造成的。而为什么会有这样的错误判断呢?

其实 Safari 使用的是 [Cocoa](http://developer.apple.com/cocoa) 框架 [URL Loading](http://developer.apple.com/documentation/Cocoa/Conceptual/URLLoadingSystem/URLLoadingSystem.html) 架构中的 NSURLResponse 类的 [suggestedFilename](http://developer.apple.com/documentation/Cocoa/Reference/Foundation/Classes/NSURLResponse_Class/Reference/Reference.html#//apple_ref/occ/instm/NSURLResponse/suggestedFilename) 方法实现的。

而这个方法,其实就是解析 HTTP 首部中的 [Content-Disposition](http://www.ietf.org/rfc/rfc2183.txt) 域里的 filename 部分完成的,比如下面这个首部:

$ curl -I http://att.newsmth.net/att.php?p.719.214628.536.png
HTTP/1.1 200 OK
….
Content-Disposition: inline;filename=ͼƬ_6.png
….

显然这是乱码,可奇怪的是,这和我们在上面的图中看到的乱码又不一样,这是为什么呢?

假如将它作为 GBK 来解码就清楚了:

$ curl -I http://att.newsmth.net/att.php?p.719.214628.536.png | iconv -f gbk -t utf-8
HTTP/1.1 200 OK
….
Content-Disposition: inline;filename=图片_6.png
….

哦,原来是 GBK 编码的“图片_6.png”,可是这个文件名怎么会变成开头图片中那种形式的乱码呢?其实写一段 Cocoa 程序就可以发现:

#import

int main()
{
const char *bytes = “图片_6.png”;
NSString *str = [[NSString alloc] initWithCString: bytes
encoding: NSASCIIStringEncoding];
NSLog(@”str: %@”, str);
[str release];

return 0;
}

(用 GBK 编码保存) 这个程序的执行结果就是输出开头那段乱码,原来 NSURLResponse 把 Content-Disposition 中的 filename 当成 ASCII 处理了,怪不得会乱码。

可是也不能怪 NSURLResponse,毕竟服务器没有提供任何编码的信息,而 RFC 2183 中也明确说明,不应该在 filename 中使用任何 ASCII 以外的字符,用了就是后果自负了。

那假如我们要写一个自己的客户端 (或者尝试修正 Safari 的错误行为),该怎么修正已经被按照 ASCII 错误解码的 NSString 呢?

因为 NSString 本身是按照 UTF-16 编码的,所以如果逐个字符地观察这个错误解码后的 NSString:

int max = [str length];

int i;
for (i = 0; i < max; i++) { unichar ch = [str characterAtIndex: i]; printf("%x ", ch); } 我们可以得到: cd bc c6 ac 5f 36 2e 70 6e 67 这样一串输出,`5f 36 2e 70 6e 67` 就是 `_6.png`,比较好认,前面的 `cd bc c6 ac` 是什么呢?一查,原来是“图”和“片”这两个字的 GBK 编码。 这就好理解了:NSString 一开始把一段 GBK 编码的字节流*逐个字节地*按照 8bit-ASCII 处理了,原本 10 个字节对应的是 7 个字符,结果被错误地解码为了 10 个字符,所以我们要把它转换回去,首先是要还原回原来的那段字节流: int max = [str length]; char *nbytes = malloc(max + 1); int i; for (i = 0; i < max; i++) { unichar ch = [str characterAtIndex: i]; nbytes[i] = (char) ch; } nbytes[i] = '\0'; 然后再将这段字节流按照正确的编码 (GB18030) 处理: NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding( kCFStringEncodingGB_18030_2000); NSLog(@"nstr: %@", [NSString stringWithCString: nbytes encoding: enc]); 结果果然得到了正确的输出: 2008-02-17 06:09:46.408 test[14095:10b] nstr: 图片_6.png 同样的逻辑可以用在很多类似的乱码情形中。完整的代码可以在这里下载: [test-str-encoding.m](http://jjgod.org/code/test-str-encoding.m)

用 Python 维护 iTunes Library

Mac OS X 10.5 中,由于 [Scripting Bridge][] 的引入,用 Ruby 或 Python 程序完成原来 AppleScript 才能完成的任务变得非常简单,而因为这两门语言自身的强大,无形中,可以完成的工作也多了不少。比如我们原来可能要用 ID3Mod 这样的软件进行 iTunes Music Library 的歌曲乱码转换,现在写一段不到十行的 Python 脚本就能完成 (当然,界面没有那么方便)。

[Scripting Bridge]: http://www.apple.com/applescript/features/scriptingbridge.html

### 一个小例子

这里先用 Python 简单的展示一点可以完成的操作:

# 导入必要的模块
from Foundation import *
from ScriptingBridge import *

# 找到 iTunes 这个应用程序
iTunes = SBApplication.applicationWithBundleIdentifier_(“com.apple.iTunes”)

# 打印出当前正在播放的音乐名称
print iTunes.currentTrack().name()

这段代码在 Leopard 下,既可以保存为 .py 文件,用系统自带的 python 解释器 (`/usr/bin/python`) 执行,也可以直接在命令行下调用 Python 解释器,查看它的输出,比如我这里是:

$ python
Python 2.5.1 (r251:54863, Oct 5 2007, 21:08:09)
[GCC 4.0.1 (Apple Inc. build 5465)] on darwin
Type “help”, “copyright”, “credits” or “license” for more information.
>>> from Foundation import *
>>> from ScriptingBridge import *
>>> iTunes = SBApplication.applicationWithBundleIdentifier_(“com.apple.iTunes”)
>>> print iTunes.currentTrack().name()
Le Festin
>>>

注意,执行之前最好先在 iTunes 里开始播放一首曲目。

### 了解更多

见识了 Scripting Bridge 的威力之后,你很自然的想知道这段代码为何可以工作,应该按什么方式来调用它,除了查询当前播放的歌曲名称以外,还有什么其他的接口可以使用。这时候,我们就需要对我们希望用脚本操纵的程序所提供的 Scripting 接口有个清晰的了解。所以可以用 `sdef` 这个命令获得一个程序的脚本接口定义:

$ sdef /Applications/iTunes.app
xml version=”1.0″ encoding=”UTF-8″?>


出现了一长串的怪异信息,太混乱了,看不懂,怎么办呢?这时应该用 `sdp` 命令过滤一下,生成一个比较可读的格式,Objective-C 头文件:

$ sdef /Applications/iTunes.app | sdp -fh –basename iTunes
$ ls
iTunes.h
$ more iTunes.h
/*
* iTunes.h
*/

#import
#import

这里就是一个对 iTunes 提供的脚本编程接口的详尽描述了。从这里我们其实很容易看出,原来 `iTunes = SBApplication.applicationWithBundleIdentifier_(“com.apple.iTunes”)
` 获得的,是一个 iTunesApplication 对象,以这个对象为出发点,我们可以做到任何 API 允许的事情。下面就是一个例子。

#!/usr/bin/python

from Foundation import *
from ScriptingBridge import *

iTunes = SBApplication.applicationWithBundleIdentifier_(“com.apple.iTunes”)

for track in iTunes.sources()[0].playlists()[0].tracks():
print track.name(), track.artist()

简单的观察一下,iTunes 的脚本编程 API 组织是这样的:在 `iTunesApplication` 下,可以找到多个来源 (`iTunesSource`),来源有许多种,比如 music library,比如 CD,比如 iPod 等等,而每个来源里,又按照播放列表 (`iTunesPlaylist`) 来组织,而每个播放列表中,显而易见地有多个曲目 (`iTunesTrack`),在上面这个例子里,我们要找的第一个来源 (`sources()[0]`) 的第一个播放列表 (`playlists()[0]`),正是你的 iTunes Music Library。

值得注意的一点是,在 `iTunes.h` 中用 `SBElementArray *` 表示的数据类型,一眼可以看出它是数组,在 Python 中处理起来也很简单,直接当成 list 类型遍历即可。

### 修改数据

那么,查询我们知道了,该怎么把信息写回去,也就是说,修改原来 Music Library 的内容呢?

先来看看 `iTunes.h` 中的出现的一段:

@interface iTunesTrack : iTunesItem

– (SBElementArray *) artworks;

@property (copy) NSString *album;
@property (copy) NSString *albumArtist;
@property NSInteger albumRating;
@property (readonly) iTunesERtK albumRatingKind;

这里描述的是一个曲目 (它继承了 `iTunesItem` 类型,所以也继承了它的 `name` 等属性),`@property` 这种写法,是 Objective-C 2.0 中[新出现的][objc-property],也很好理解,`(copy)` 的意思是你的赋值会被复制一份保存,`(readonly)` 当然是只读的,而 `NSInteger` 这种简单的变量也是可以写的。

[objc-property]: http://theocacao.com/document.page/510

那么,查询我们知道了,比如这里有个 `album` 属性,我们就去调用 track 的 `album()` 方法,但究竟如何赋值呢?还是按照 Cocoa 的 Key-value coding 的老规矩,改成 `setAlbum(<参数>)`,比如:

>>> iTunes.sources()[0].playlists()[0].tracks()[0].name()
u’Le Festin – Performed by Camille’
>>> iTunes.sources()[0].playlists()[0].tracks()[0].setName_(u’Le Festin’)

这里把一首原来叫做 Le Festin – Performed by Camille 的歌曲名称修正为 [Le Festin](),回到 iTunes 里一看,果然改了。

[Le Festin]: http://blog.pixnet.net/cherrybear/post/8735331

### 系统自带与 macports

在 Mac OS X 10.4 中,由于系统自带的 Python 是老旧的 2.3 版本,所以对 Python 爱好者来说,都往往不得不自己编译一份或者使用 fink/macports 中提供的 Python 2.4/2.5 版本。而在 Mac OS X 10.5 中,终于把自带的 Python 升级到了最新的 2.5.1 版本,对爱好者来说无疑是省事了,可惜这个自带的版本一个令中文用户郁闷的 bug 是:在提示符模式下无法用输入法输入任何中文字符 (相信其他 CJK 字符也是如此),比如我用输入法打一段:你好 hello 世界 world,等我一确认,Python 解释器只收到了 hello world,中文字符被自动滤掉了!然而,通过 macports 安装的 Python 此功能却是正常的。

这使得我们这里如果要修改中文的歌曲、作家、专辑名等等都变得很不方便,怎么办呢?

系统自带的 Python 的特别之处,其实在于它自带了许多 Apple 添加的模块,比如我们在代码最开始导入的 `Foundation` 和 `ScriptingBridge` 模块,这些模块有些不是开源的,有些则还没来得及把代码公开,所以我们机器上只安装有编译好的 Python 模块,然而幸好这些模块是 2.5 版本的,只要我们用 macports 也安装一个 2.5 版本,把系统自带模块的路径给加进去,就能找到并使用它们了。让我们还是用开头那个例子做个简单的示范:

#!/opt/local/bin/python2.5

import sys

sys.path.append(‘/System/Library/Frameworks/Python.framework/Versions/2.5/Extras/lib/python’)
sys.path.append(‘/System/Library/Frameworks/Python.framework/Versions/2.5/Extras/lib/python/PyObjC’)

from Foundation import *
from ScriptingBridge import *

iTunes = SBApplication.applicationWithBundleIdentifier_(“com.apple.iTunes”)

print iTunes.currentTrack().name()

有了上面这些介绍,相信要把这几个工具组合在一起成为一套 iTunes Music Library 的管理利器也不是难事,各位不妨发挥想象力,我就不多说了。